[レポート] 新登場のAmazon SageMaker Lakehouseで分析とAIを加速する #AWSreInvent #ANT354
データ事業本部 インテグレーション部 機械学習チームの鈴木です。
AWS re:Invent 2024の、セッション番号ANT354の『[NEW LAUNCH] Amazon SageMaker Lakehouse: Accelerate analytics & AI』を聴講したのでレポートです。
このセッションはAWS re:Invent 2024で新しく発表された大きなアップデートであるSageMaker Lakehouseを中心に、Amazon SageMaker Unified Studioにも触れつつ紹介したものになります。
SageMaker Lakehouseがどのようにデータソースと連携するかや、Amazon SageMaker Unified Studioでの利用方法についても学べる内容でした。
オンデマンド動画
セッションはSageMaker Lakehouseのコンセプトの説明と、より詳細な機能およびデモの紹介の2パートに別れておりました。
概要・ポイント
SageMaker Lakehouseは、Amazon S3データレイクとRedshiftデータウェアハウスを統合します。全てのデータはIceberg APIを通じてアクセス可能です。AWS EMR・Glue・Athena、ほかにもサードパーティのアプリケーションなどのIceberg対応エンジンであれば、どのエンジンでもアクセスできるそうです。
行レベル・列レベルの権限など、きめ細かい権限制御も備わっています。
Zero-ETL・フェデレーテッドクエリ機能も備えることでより様々なシステムへのシームレスなアクセスも意識されています。
SageMaker LakehouseはSageMaker Unified Studioから見えるのでその一部なのかなというイメージを持っていましたが、肝としてはApache Iceberg APIを備えたカタログ機能のようでした。
SageMaker Unified StudioはこのAPIを通してカタログの中身を取得しているということですね。
デモではLakehoseを使ってRedshiftクラスター間のデータをクエリする例と、SageMaker Unified StudioからクエリおよびノートブックでのSparkによるLakehouseからのデータ取得の例を見ることができました。特にUnified StudioからLakehouseのデータを見られるようにする手順が映っていたので、試してみたい方はデモ部分を見ていただくとよいかなと思います。
なお、Lakehoseについては、以下のガイドにも説明がありました。
デモではLakeFormationのCatalog機能にRedshiftを登録する操作も出てきていますが、このCatalogについては以下のガイドを参考にされるとよさそうでした。
SageMaker Lakehouseに関するアナウンス内容・検証はDevelopersIOでも記事にまとめられております。
- [新サービス] 分析と人工知能(AI)をシンプルに統合化したデータレイクハウス、Amazon SageMaker Lakehouse が発表されたので実際に試してみました #AWSreInvent | DevelopersIO
- [アップデート] Amazon SageMaker Lakehouse と Amazon Redshift、8つのアプリケーションからのZero-ETL統合をサポートしました #AWSreInvent | DevelopersIO
- [新機能] Amazon DynamoDB と Amazon SageMaker Lakehouse のZero-ETL統合を試してみました #AWSreInvent | DevelopersIO
- [新機能] Amazon SageMaker Lakehouse と AWS Glue のデータ接続性を拡張されました | DevelopersIO
最後に
AWS re:Invent 2024の、セッション番号ANT354のレポートでした。
データレイクとデータウェアハウスを相互に利用できるとお互いのメリットが活かせて良いねという話は以前からありましたが、セッション内でも話されているように設計によって得意不得意が出たりデータ分析基盤のユーザーから見ると結局サイロ化してしまっているというような課題があったと思います。LakehouseとSageMaker Unified Studioの登場により、いよいよこの仕切りが取り払われ非常に簡単にサービスを横断してデータの利用ができるようになるというのがこの機能のミソかなと思いました。
ぜひセッションをみてこの新しい機能を学んでみましょう!